<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   《hadoop核心技术》4月新书速递  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://dataunion.org/14988.html",
                  host: "http://dataunion.org",
                  prePath: "http://dataunion.org",
                  scheme: "http",
                  pathBase: "http://dataunion.org/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466460514: Accept with keywords: (title(0.2):核心技术,社区,新书,hadoop,数盟, topn(0.4):初始化,队列,作业,数盟,编译,阶段,数据挖掘,原理,机制,架构,自定义,技术,参数,计算,文章,排序,数据,编程,用户,Hadoop,命令,算法,百度,策略,框架,小结,任务分配,调度,集群,核心).-->
 </head>
 <body onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    《hadoop核心技术》4月新书速递
   </h1>
  </div>
  <div class="container" id="xmain">
   ﻿﻿
   <title>
    《hadoop核心技术》4月新书速递 | 数盟社区
   </title>
   <!-- All in One SEO Pack 2.2.7.6.2 by Michael Torbert of Semper Fi Web Design[32,65] -->
   <!-- /all in one seo pack -->
   <!--
<div align="center">
<a href="http://strata.oreilly.com.cn/hadoop-big-data-cn?cmp=mp-data-confreg-home-stcn16_dataunion_pc" target="_blank"><img src="http://dataunion.org/wp-content/uploads/2016/05/stratabj.jpg"/ ></a>
</div>
-->
   <header id="header-web">
    <div class="header-main">
     <hgroup class="logo">
      <h1>
       <a href="http://dataunion.org/" rel="home" title="数盟社区">
        <img src="http://dataunion.org/wp-content/themes/yzipi/images/logo.png"/>
       </a>
      </h1>
     </hgroup>
     <!--logo-->
     <nav class="header-nav">
      <ul class="menu" id="menu-%e4%b8%bb%e8%8f%9c%e5%8d%95">
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-71" id="menu-item-71">
        <a href="http://dataunion.org/category/events" title="events">
         活动
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-22457" id="menu-item-22457">
          <a href="http://dataunion.org/2016timeline">
           2016档期
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-22459" id="menu-item-22459">
          <a href="http://dataunion.org/category/parterc">
           合作会议
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-20869" id="menu-item-20869">
        <a href="http://dataunion.org/category/tech" title="articles">
         文章
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20867" id="menu-item-20867">
          <a href="http://dataunion.org/category/tech/base" title="base">
           基础架构
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3302" id="menu-item-3302">
          <a href="http://dataunion.org/category/tech/ai" title="ai">
           人工智能
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3303" id="menu-item-3303">
          <a href="http://dataunion.org/category/tech/analysis" title="analysis">
           数据分析
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21920" id="menu-item-21920">
          <a href="http://dataunion.org/category/tech/dm">
           数据挖掘
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3314" id="menu-item-3314">
          <a href="http://dataunion.org/category/tech/viz" title="viz">
           可视化
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-3305" id="menu-item-3305">
          <a href="http://dataunion.org/category/tech/devl" title="devl">
           编程语言
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-20876" id="menu-item-20876">
        <a href="http://dataunion.org/category/industry">
         行业
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-16328" id="menu-item-16328">
          <a href="http://dataunion.org/category/industry/case" title="case">
           行业应用
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-2112" id="menu-item-2112">
          <a href="http://dataunion.org/category/industry/demo" title="demo">
           Demo展示
          </a>
         </li>
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21562" id="menu-item-21562">
          <a href="http://dataunion.org/category/industry/news">
           行业资讯
          </a>
         </li>
        </ul>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-311" id="menu-item-311">
        <a href="http://dataunion.org/category/sources" title="sources">
         资源
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category current-post-ancestor current-menu-parent current-post-parent menu-item-20870" id="menu-item-20870">
        <a href="http://dataunion.org/category/books" title="book">
         图书
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-21363" id="menu-item-21363">
        <a href="http://dataunion.org/category/training">
         课程
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-has-children menu-item-21853" id="menu-item-21853">
        <a href="http://dataunion.org/category/jobs">
         职位
        </a>
        <ul class="sub-menu">
         <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-22050" id="menu-item-22050">
          <a href="http://dataunion.org/category/career">
           职业规划
          </a>
         </li>
        </ul>
       </li>
      </ul>
     </nav>
     <!--header-nav-->
    </div>
   </header>
   <!--header-web-->
   <div id="main">
    <div id="soutab">
     <form action="http://dataunion.org/" class="search" method="get">
     </form>
    </div>
    <div id="container">
     <nav id="mbx">
      当前位置：
      <a href="http://dataunion.org">
       首页
      </a>
      &gt;
      <a href="http://dataunion.org/category/books">
       图书
      </a>
      &gt;  正文
     </nav>
     <!--mbx-->
     <article class="content">
      <header align="centre" class="contenttitle">
       <div class="mscc">
        <h1 class="mscctitle">
         <a href="http://dataunion.org/14988.html">
          《hadoop核心技术》4月新书速递
         </a>
        </h1>
        <address class="msccaddress ">
         <em>
          3,344 次阅读 -
         </em>
         <a href="http://dataunion.org/category/books" rel="category tag">
          图书
         </a>
        </address>
       </div>
      </header>
      <div class="content-text">
       <h2>
        书名：《Hadoop核心技术》
       </h2>
       <p>
        作者：翟周伟
       </p>
       <p>
        出版时间：2015.4
       </p>
       <p>
        定价：69元
       </p>
       <p>
        <a href="http://dataunion.org/wp-content/uploads/2015/04/Hadoop核心技术.jpg">
         <img src="http://dataunion.org/wp-content/uploads/2015/04/Hadoop核心技术.jpg"/>
        </a>
       </p>
       <p>
        百度资深Hadoop技术专家和高级算法工程师撰写，结合百度大数据实践，直击企业痛点，多位大数据技术专家联袂推荐！
       </p>
       <p>
        从使用、原理、运维和开发4个方面深度讲解Hadoop最核心的关键技术。
       </p>
       <h2>
        作者介绍：
       </h2>
       <p>
        <b>
         翟周伟
        </b>
        就职于百度，资深Hadoop技术专家，专注于Hadoop&amp;大数据，数据挖掘，自然语言处理领域。2009年便开始利用Hadoop构建商业级大数据系统，是国内该领域最早的一批人之一，负责设计过多个基于Hadoop的大数据平台和分析系统。2011年合著出版《Hadoop开源云计算平台》，并在自然语言处理领域申请过一项发明专利。
       </p>
       <h2>
        内容简介：
       </h2>
       <p>
        这是一本技术深度与企业实践并重的著作，由百度顶尖的Hadoop技术工程师撰写，是百度Hadoop技术实践经验的总结。本书使用、实现原理、运维和开发4个方面对Hadoop的核心技术进行了深入的讲解：
        <br/>
        （1）使用：详细讲解了HDFS存储系统、MapReduce计算框架，以及HDFS的命令系统；
        <br/>
        （2）原理：结合源代码，深度分析了MapReduce、HDFS、Streaming、Pipes、Hadoop作业调度系统等重要技术和组件的架构设计、工作机制和实现原理；
        <br/>
        （3）运维：结合百度的实际生产环境，详细讲解了Hadoop集群的安装、配置、测试以及管理和运维；
        <br/>
        （4）开发：详细讲解了Hadoop Streaming、Pipes的使用和开发实践，以及MapReduce的编程实践和常见问题。
        <br/>
        与市面上已有的Hadoop相比，本书的最大不同之处是它直切企业应用和实践Hadoop技术的痛点，深入讲解了企业最需要和最头疼的技术和问题，内容上非常聚焦。
       </p>
       <h2>
        目录：
       </h2>
       <p>
        <strong>
         前　言
        </strong>
       </p>
       <p>
        <strong>
         基　础　篇
        </strong>
       </p>
       <p>
        第1章　认识Hadoop  2
       </p>
       <p>
        1.1　缘于搜索的小象  2
       </p>
       <p>
        1.1.1　Hadoop的身世  2
       </p>
       <p>
        1.1.2　Hadoop简介  3
       </p>
       <p>
        1.1.3　Hadoop发展简史  6
       </p>
       <p>
        1.2　大数据、Hadoop和云计算  7
       </p>
       <p>
        1.2.1　大数据  7
       </p>
       <p>
        1.2.2　大数据、Hadoop和云计算的关系  8
       </p>
       <p>
        1.3　设计思想与架构  9
       </p>
       <p>
        1.3.1　数据存储与切分  9
       </p>
       <p>
        1.3.2　MapReduce模型  11
       </p>
       <p>
        1.3.3　MPI和MapReduce  13
       </p>
       <p>
        1.4　国外Hadoop的应用现状  13
       </p>
       <p>
        1.5　国内Hadoop的应用现状  17
       </p>
       <p>
        1.6　Hadoop发行版  20
       </p>
       <p>
        1.6.1　Apache Hadoop  20
       </p>
       <p>
        1.6.2　Cloudera Hadoop  20
       </p>
       <p>
        1.6.3　Hortonworks Hadoop发行版  21
       </p>
       <p>
        1.6.4　MapR Hadoop发行版  22
       </p>
       <p>
        1.6.5　IBM Hadoop发行版  24
       </p>
       <p>
        1.6.6　Intel Hadoop发行版  24
       </p>
       <p>
        1.6.7　华为Hadoop发行版  25
       </p>
       <p>
        1.7　小结  26
       </p>
       <p>
        第2章　Hadoop使用之初体验  27
       </p>
       <p>
        2.1　搭建测试环境  27
       </p>
       <p>
        2.1.1　软件与准备  27
       </p>
       <p>
        2.1.2　安装与配置  28
       </p>
       <p>
        2.1.3　启动与停止  29
       </p>
       <p>
        2.2　算法分析与设计  31
       </p>
       <p>
        2.2.1　Map设计  31
       </p>
       <p>
        2.2.2　Reduce设计  32
       </p>
       <p>
        2.3　实现接口  32
       </p>
       <p>
        2.3.1　Java API实现  33
       </p>
       <p>
        2.3.2　Streaming接口实现  36
       </p>
       <p>
        2.3.3　Pipes接口实现  38
       </p>
       <p>
        2.4　编译  40
       </p>
       <p>
        2.4.1　基于Java API实现的编译  40
       </p>
       <p>
        2.4.2　基于Streaming实现的编译  40
       </p>
       <p>
        2.4.3　基于Pipes实现的编译  41
       </p>
       <p>
        2.5　提交作业  41
       </p>
       <p>
        2.5.1　基于Java API实现作业提交  41
       </p>
       <p>
        2.5.2　基于Streaming实现作业提交  42
       </p>
       <p>
        2.5.3　基于Pipes实现作业提交  43
       </p>
       <p>
        2.6　小结  44
       </p>
       <p>
        第3章　Hadoop存储系统  45
       </p>
       <p>
        3.1　基本概念  46
       </p>
       <p>
        3.1.1　NameNode  46
       </p>
       <p>
        3.1.2　DateNode  46
       </p>
       <p>
        3.1.3　客户端  47
       </p>
       <p>
        3.1.4　块  47
       </p>
       <p>
        3.2　HDFS的特性和目标  48
       </p>
       <p>
        3.2.1　HDFS的特性  48
       </p>
       <p>
        3.2.2　HDFS的目标  48
       </p>
       <p>
        3.3　HDFS架构  49
       </p>
       <p>
        3.3.1　Master/Slave架构  49
       </p>
       <p>
        3.3.2　NameNode和Secondary NameNode通信模型  51
       </p>
       <p>
        3.3.3　文件存取机制  52
       </p>
       <p>
        3.4　HDFS核心设计  54
       </p>
       <p>
        3.4.1　Block大小  54
       </p>
       <p>
        3.4.2　数据复制  55
       </p>
       <p>
        3.4.3　数据副本存放策略  56
       </p>
       <p>
        3.4.4　数据组织  57
       </p>
       <p>
        3.4.5　空间回收  57
       </p>
       <p>
        3.4.6　通信协议  58
       </p>
       <p>
        3.4.7　安全模式  58
       </p>
       <p>
        3.4.8　机架感知  59
       </p>
       <p>
        3.4.9　健壮性  59
       </p>
       <p>
        3.4.10　负载均衡  60
       </p>
       <p>
        3.4.11　升级和回滚机制  62
       </p>
       <p>
        3.5　HDFS权限管理  64
       </p>
       <p>
        3.5.1　用户身份  64
       </p>
       <p>
        3.5.2　系统实现  65
       </p>
       <p>
        3.5.3　超级用户  65
       </p>
       <p>
        3.5.4　配置参数  65
       </p>
       <p>
        3.6　HDFS配额管理  66
       </p>
       <p>
        3.7　HDFS的缺点  67
       </p>
       <p>
        3.8　小结  68
       </p>
       <p>
        第4章　HDFS的使用  69
       </p>
       <p>
        4.1　HDFS环境准备  69
       </p>
       <p>
        4.1.1　HDFS安装配置  69
       </p>
       <p>
        4.1.2　HDFS格式化与启动  70
       </p>
       <p>
        4.1.3　HDFS运行检查  70
       </p>
       <p>
        4.2　HDFS命令的使用  71
       </p>
       <p>
        4.2.1　fs shell  71
       </p>
       <p>
        4.2.2　archive  77
       </p>
       <p>
        4.2.3　distcp  78
       </p>
       <p>
        4.2.4　fsck  81
       </p>
       <p>
        4.3　HDFS Java API的使用方法  82
       </p>
       <p>
        4.3.1　Java API简介  82
       </p>
       <p>
        4.3.2　读文件  82
       </p>
       <p>
        4.3.3　写文件  86
       </p>
       <p>
        4.3.4　删除文件或目录  90
       </p>
       <p>
        4.4　C接口libhdfs  91
       </p>
       <p>
        4.4.1　libhdfs介绍  91
       </p>
       <p>
        4.4.2　编译与部署  91
       </p>
       <p>
        4.4.3　libhdfs接口介绍  92
       </p>
       <p>
        4.4.4　libhdfs使用举例  95
       </p>
       <p>
        4.5　WebHDFS接口  97
       </p>
       <p>
        4.5.1　WebHDFS REST API简介  97
       </p>
       <p>
        4.5.2　WebHDFS配置  98
       </p>
       <p>
        4.5.3　WebHDFS使用  98
       </p>
       <p>
        4.5.4　WebHDFS错误响应和查询参数  101
       </p>
       <p>
        4.6　小结  103
       </p>
       <p>
        第5章　MapReduce计算框架  104
       </p>
       <p>
        5.1　Hadoop MapReduce简介  104
       </p>
       <p>
        5.2　MapReduce模型  105
       </p>
       <p>
        5.2.1　MapReduce编程模型  105
       </p>
       <p>
        5.2.2　MapReduce实现原理  106
       </p>
       <p>
        5.3　计算流程与机制  108
       </p>
       <p>
        5.3.1　作业提交和初始化  108
       </p>
       <p>
        5.3.2　Mapper  110
       </p>
       <p>
        5.3.3　Reducer  111
       </p>
       <p>
        5.3.4　Reporter和OutputCollector  112
       </p>
       <p>
        5.4　MapReduce的输入/输出格式  113
       </p>
       <p>
        5.4.1　输入格式  113
       </p>
       <p>
        5.4.2　输出格式  118
       </p>
       <p>
        5.5　核心问题  124
       </p>
       <p>
        5.5.1　Map和Reduce数量  124
       </p>
       <p>
        5.5.2　作业配置  126
       </p>
       <p>
        5.5.3　作业执行和环境  127
       </p>
       <p>
        5.5.4　作业容错机制  129
       </p>
       <p>
        5.5.5　作业调度  131
       </p>
       <p>
        5.6　有用的MapReduce特性  132
       </p>
       <p>
        5.6.1　计数器  132
       </p>
       <p>
        5.6.2　DistributedCache  134
       </p>
       <p>
        5.6.3　Tool  135
       </p>
       <p>
        5.6.4　IsolationRunner  136
       </p>
       <p>
        5.6.5　Prof?iling  136
       </p>
       <p>
        5.6.6　MapReduce调试  136
       </p>
       <p>
        5.6.7　数据压缩  137
       </p>
       <p>
        5.6.8　优化  138
       </p>
       <p>
        5.7　小结  138
       </p>
       <p>
        第6章　Hadoop命令系统  139
       </p>
       <p>
        6.1　Hadoop命令系统的组成  139
       </p>
       <p>
        6.2　用户命令  141
       </p>
       <p>
        6.3　管理员命令  144
       </p>
       <p>
        6.4　测试命令  148
       </p>
       <p>
        6.5　应用命令  156
       </p>
       <p>
        6.6　Hadoop的streaming命令  163
       </p>
       <p>
        6.6.1　streaming命令  163
       </p>
       <p>
        6.6.2　参数使用分析  164
       </p>
       <p>
        6.7　Hadoop的pipes命令  168
       </p>
       <p>
        6.7.1　pipes命令  168
       </p>
       <p>
        6.7.2　参数使用分析  169
       </p>
       <p>
        6.8　小结  170
       </p>
       <p>
        <strong>
         高　级　篇
        </strong>
       </p>
       <p>
        第7章　MapReduce深度分析  172
       </p>
       <p>
        7.1　MapReduce总结构分析  172
       </p>
       <p>
        7.1.1　数据流向分析  172
       </p>
       <p>
        7.1.2　处理流程分析  174
       </p>
       <p>
        7.2　MapTask实现分析  176
       </p>
       <p>
        7.2.1　总逻辑分析  176
       </p>
       <p>
        7.2.2　Read阶段  178
       </p>
       <p>
        7.2.3　Map阶段  178
       </p>
       <p>
        7.2.4　Collector和Partitioner阶段  180
       </p>
       <p>
        7.2.5　Spill阶段   181
       </p>
       <p>
        7.2.6　Merge阶段  185
       </p>
       <p>
        7.3　ReduceTask实现分析  186
       </p>
       <p>
        7.3.1　总逻辑分析  186
       </p>
       <p>
        7.3.2　Shuffle阶段  187
       </p>
       <p>
        7.3.3　Merge阶段  189
       </p>
       <p>
        7.3.4　Sort阶段  190
       </p>
       <p>
        7.3.5　Reduce阶段  191
       </p>
       <p>
        7.4　JobTracker分析  192
       </p>
       <p>
        7.4.1　JobTracker服务分析  192
       </p>
       <p>
        7.4.2　JobTracker启动分析  193
       </p>
       <p>
        7.4.3　JobTracker核心子线程分析  195
       </p>
       <p>
        7.5　TaskTracker分析  201
       </p>
       <p>
        7.5.1　TaskTracker启动分析  201
       </p>
       <p>
        7.5.2　TaskTracker核心子线程分析  205
       </p>
       <p>
        7.6　心跳机制实现分析  207
       </p>
       <p>
        7.6.1　心跳检测分析  207
       </p>
       <p>
        7.6.2　TaskTracker.transmitHeart-Beat()  207
       </p>
       <p>
        7.6.3　JobTracker.heartbeat()  209
       </p>
       <p>
        7.6.4　JobTracker.processHeartbeat()  212
       </p>
       <p>
        7.7　作业创建分析  213
       </p>
       <p>
        7.7.1　初始化分析  214
       </p>
       <p>
        7.7.2　作业提交分析  215
       </p>
       <p>
        7.8　作业执行分析  217
       </p>
       <p>
        7.8.1　JobTracker初始化  218
       </p>
       <p>
        7.8.2　TaskTracker.startNewTask()  220
       </p>
       <p>
        7.8.3　TaskTracker.localizeJob()  220
       </p>
       <p>
        7.8.4　TaskRunner.run()  221
       </p>
       <p>
        7.8.5　MapTask.run()  222
       </p>
       <p>
        7.9　小结  223
       </p>
       <p>
        第8章　Hadoop Streaming和Pipes原理与实现  224
       </p>
       <p>
        8.1　Streaming原理浅析  224
       </p>
       <p>
        8.2　Streaming实现架构  226
       </p>
       <p>
        8.3　Streaming核心实现机制  227
       </p>
       <p>
        8.3.1　主控框架实现  227
       </p>
       <p>
        8.3.2　用户进程管理  228
       </p>
       <p>
        8.3.3　框架和用户程序的交互  229
       </p>
       <p>
        8.3.4　PipeMapper和PiperReducer  230
       </p>
       <p>
        8.4　Pipes原理浅析  231
       </p>
       <p>
        8.5　Pipes实现架构  233
       </p>
       <p>
        8.6　Pipes核心实现机制  234
       </p>
       <p>
        8.6.1　主控类实现  234
       </p>
       <p>
        8.6.2　用户进程管理  235
       </p>
       <p>
        8.6.3　PipesMapRunner  235
       </p>
       <p>
        8.6.4　PipesReducer  238
       </p>
       <p>
        8.6.5　C++端HadoopPipes  238
       </p>
       <p>
        8.7　小结  239
       </p>
       <p>
        第9章　Hadoop作业调度系统  240
       </p>
       <p>
        9.1　作业调度概述  241
       </p>
       <p>
        9.1.1　相关概念  241
       </p>
       <p>
        9.1.2　作业调度流程  242
       </p>
       <p>
        9.1.3　集群资源组织与管理  243
       </p>
       <p>
        9.1.4　队列控制和权限管理  244
       </p>
       <p>
        9.1.5　插件式调度框架  245
       </p>
       <p>
        9.2　FIFO调度器  246
       </p>
       <p>
        9.2.1　基本调度策略  246
       </p>
       <p>
        9.2.2　FIFO实现分析  247
       </p>
       <p>
        9.2.3　FIFO初始化与停止  248
       </p>
       <p>
        9.2.4　作业监听控制  249
       </p>
       <p>
        9.2.5　任务分配算法  250
       </p>
       <p>
        9.2.6　配置与使用  254
       </p>
       <p>
        9.3　公平调度器  254
       </p>
       <p>
        9.3.1　产生背景  254
       </p>
       <p>
        9.3.2　主要功能  255
       </p>
       <p>
        9.3.3　基本调度策略  255
       </p>
       <p>
        9.3.4　FairScheduler实现分析  257
       </p>
       <p>
        9.3.5　FairScheduler启停分析  258
       </p>
       <p>
        9.3.6　作业监听控制  260
       </p>
       <p>
        9.3.7　资源池管理  260
       </p>
       <p>
        9.3.8　作业更新策略  262
       </p>
       <p>
        9.3.9　作业权重和资源量的计算  266
       </p>
       <p>
        9.3.10　任务分配算法  267
       </p>
       <p>
        9.3.11　FairScheduler配置参数  268
       </p>
       <p>
        9.3.12　使用与管理  270
       </p>
       <p>
        9.4　容量调度器  272
       </p>
       <p>
        9.4.1　产生背景  272
       </p>
       <p>
        9.4.2　主要功能  272
       </p>
       <p>
        9.4.3　基本调度策略  274
       </p>
       <p>
        9.4.4　CapacityScheduler实现分析  274
       </p>
       <p>
        9.4.5　CapacityScheduler启停分析  275
       </p>
       <p>
        9.4.6　作业监听控制  277
       </p>
       <p>
        9.4.7　作业初始化分析  277
       </p>
       <p>
        9.4.8　任务分配算法  278
       </p>
       <p>
        9.4.9　内存匹配机制  279
       </p>
       <p>
        9.4.10　配置与使用  280
       </p>
       <p>
        9.5　调度器对比分析  283
       </p>
       <p>
        9.5.1　调度策略对比  283
       </p>
       <p>
        9.5.2　队列和优先级  283
       </p>
       <p>
        9.5.3　资源分配保证  283
       </p>
       <p>
        9.5.4　作业限制  284
       </p>
       <p>
        9.5.5　配置管理  284
       </p>
       <p>
        9.5.6　扩展性支持  284
       </p>
       <p>
        9.5.7　资源抢占和延迟调度  284
       </p>
       <p>
        9.5.8　优缺点分析  285
       </p>
       <p>
        9.6　其他调度器  285
       </p>
       <p>
        9.6.1　HOD调度器  285
       </p>
       <p>
        9.6.2　LATE调度器  286
       </p>
       <p>
        9.7　小结  288
       </p>
       <p>
        <strong>
         实　战　篇
        </strong>
       </p>
       <p>
        第10章　Hadoop集群搭建  290
       </p>
       <p>
        10.1　Hadoop版本的选择  290
       </p>
       <p>
        10.2　集群基础硬件需求  291
       </p>
       <p>
        10.2.1　内存  291
       </p>
       <p>
        10.2.2　CPU  292
       </p>
       <p>
        10.2.3　磁盘  292
       </p>
       <p>
        10.2.4　网卡  293
       </p>
       <p>
        10.2.5　网络拓扑  293
       </p>
       <p>
        10.3　集群基础软件需求  294
       </p>
       <p>
        10.3.1　操作系统  294
       </p>
       <p>
        10.3.2　JVM和SSH  295
       </p>
       <p>
        10.4　虚拟化需求  295
       </p>
       <p>
        10.5　事前准备  296
       </p>
       <p>
        10.5.1　创建安装用户  296
       </p>
       <p>
        10.5.2　安装Java  297
       </p>
       <p>
        10.5.3　安装SSH并设置  297
       </p>
       <p>
        10.5.4　防火墙端口设置  298
       </p>
       <p>
        10.6　安装Hadoop  298
       </p>
       <p>
        10.6.1　安装HDFS  299
       </p>
       <p>
        10.6.2　安装MapReduce  299
       </p>
       <p>
        10.7　集群配置  300
       </p>
       <p>
        10.7.1　配置管理  300
       </p>
       <p>
        10.7.2　环境变量配置  301
       </p>
       <p>
        10.7.3　核心参数配置  302
       </p>
       <p>
        10.7.4　HDFS参数配置  303
       </p>
       <p>
        10.7.5　MapReduce参数配置  306
       </p>
       <p>
        10.7.6　masters和slaves配置  313
       </p>
       <p>
        10.7.7　客户端配置  313
       </p>
       <p>
        10.8　启动和停止  314
       </p>
       <p>
        10.8.1　启动/停止HDFS  314
       </p>
       <p>
        10.8.2　启动/停止MapReduce  315
       </p>
       <p>
        10.8.3　启动验证  315
       </p>
       <p>
        10.9　集群基准测试  316
       </p>
       <p>
        10.9.1　HDFS基准测试  316
       </p>
       <p>
        10.9.2　MapReduce基准测试  317
       </p>
       <p>
        10.9.3　综合性能测试  318
       </p>
       <p>
        10.10　集群搭建实例  319
       </p>
       <p>
        10.10.1　部署策略  319
       </p>
       <p>
        10.10.2　软件和硬件环境  320
       </p>
       <p>
        10.10.3　Hadoop安装  321
       </p>
       <p>
        10.10.4　配置core-site.xml  321
       </p>
       <p>
        10.10.5　配置hdfs-site.xml  322
       </p>
       <p>
        10.10.6　配置mapred-site.xml  322
       </p>
       <p>
        10.10.7　SecondaryNameNode和Slave  324
       </p>
       <p>
        10.10.8　配置作业队列  324
       </p>
       <p>
        10.10.9　配置第三方调度器  325
       </p>
       <p>
        10.10.10　启动与验证  327
       </p>
       <p>
        10.11　小结  327
       </p>
       <p>
        第11章　Hadoop Streaming和Pipes编程实战  328
       </p>
       <p>
        11.1　Streaming基础编程  328
       </p>
       <p>
        11.1.1　Streaming编程入门  328
       </p>
       <p>
        11.1.2　Map和Reduce数目  331
       </p>
       <p>
        11.1.3　队列、优先级及权限  332
       </p>
       <p>
        11.1.4　分发文件和压缩包  333
       </p>
       <p>
        11.1.5　压缩参数的使用  336
       </p>
       <p>
        11.1.6　本地作业的调试  338
       </p>
       <p>
        11.2　Streaming高级应用  338
       </p>
       <p>
        11.2.1　参数与环境变量传递  339
       </p>
       <p>
        11.2.2　自定义分隔符  340
       </p>
       <p>
        11.2.3　自定义Partitioner  343
       </p>
       <p>
        11.2.4　自定义计数器  347
       </p>
       <p>
        11.2.5　处理二进制数据  347
       </p>
       <p>
        11.2.6　使用聚合函数  351
       </p>
       <p>
        11.3　Pipes编程接口  352
       </p>
       <p>
        11.3.1　TaskContext  352
       </p>
       <p>
        11.3.2　Mapper  353
       </p>
       <p>
        11.3.3　Reducer  354
       </p>
       <p>
        11.3.4　Partitioner  354
       </p>
       <p>
        11.3.5　RecordReader  355
       </p>
       <p>
        11.3.6　RecordWriter  356
       </p>
       <p>
        11.4　Pipes编程应用  357
       </p>
       <p>
        11.5　小结  359
       </p>
       <p>
        第12章　Hadoop MapReduce应用开发  360
       </p>
       <p>
        12.1　开发环境准备  360
       </p>
       <p>
        12.2　Eclipse集成环境开发  361
       </p>
       <p>
        12.2.1　构建MapReduce Eclipse IDE  361
       </p>
       <p>
        12.2.2　开发示例  363
       </p>
       <p>
        12.3　MapReduce Java API编程  368
       </p>
       <p>
        12.3.1　Mapper编程接口  369
       </p>
       <p>
        12.3.2　Reducer编程接口  370
       </p>
       <p>
        12.3.3　驱动类编写  372
       </p>
       <p>
        12.3.4　编译运行  373
       </p>
       <p>
        12.4　压缩功能使用  374
       </p>
       <p>
        12.4.1　Hadoop数据压缩  374
       </p>
       <p>
        12.4.2　压缩特征与性能  374
       </p>
       <p>
        12.4.3　本地压缩库  375
       </p>
       <p>
        12.4.4　使用压缩  376
       </p>
       <p>
        12.5　排序应用  378
       </p>
       <p>
        12.5.1　Hadoop排序问题  378
       </p>
       <p>
        12.5.2　二次排序  378
       </p>
       <p>
        12.5.3　比较器和组合排序  380
       </p>
       <p>
        12.5.4　全局排序  381
       </p>
       <p>
        12.6　多路输出  382
       </p>
       <p>
        12.7　常见问题与处理方法  384
       </p>
       <p>
        12.7.1　常见的开发问题  384
       </p>
       <p>
        12.7.2　运行时错误问题  386
       </p>
       <p>
        12.8　小结  387
       </p>
      </div>
      <div>
       <strong>
        注：转载文章均来自于公开网络，仅供学习使用，不会用于任何商业用途，如果侵犯到原作者的权益，请您与我们联系删除或者授权事宜，联系邮箱：contact@dataunion.org。转载数盟网站文章请注明原文章作者，否则产生的任何版权纠纷与数盟无关。
       </strong>
      </div>
      <!--content_text-->
      <div class="fenxian">
       <!-- JiaThis Button BEGIN -->
       <div class="jiathis_style_32x32">
        <p class="jiathis_button_weixin">
        </p>
        <p class="jiathis_button_tsina">
        </p>
        <p class="jiathis_button_qzone">
        </p>
        <p class="jiathis_button_cqq">
        </p>
        <p class="jiathis_button_tumblr">
        </p>
        <a class="jiathis jiathis_txt jtico jtico_jiathis" href="http://www.jiathis.com/share" target="_blank">
        </a>
        <p class="jiathis_counter_style">
        </p>
       </div>
       <!-- JiaThis Button END -->
      </div>
     </article>
     <!--content-->
     <!--相关文章-->
     <div class="xianguan">
      <div class="xianguantitle">
       相关文章！
      </div>
      <ul class="pic">
       <li>
        <a href="http://dataunion.org/24684.html">
         <img src="http://dataunion.org/wp-content/uploads/2016/06/51dgaTOYqmL._SX380_BO1204203200_-153x200.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/24684.html" rel="bookmark" title="《Think Python 2e》最新版中文翻译 第一章程序之道">
         《Think Python 2e》最新版中文翻译 第一章程序之道
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/24121.html">
         <img src="http://dataunion.org/wp-content/uploads/2016/05/220309riuno6638iqoua8u-152x200.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/24121.html" rel="bookmark" title="程序员必读的书，StackOverflow 创始人推荐">
         程序员必读的书，StackOverflow 创始人推荐
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/24051.html">
         <img src="http://dataunion.org/wp-content/uploads/2016/05/1605051412271910-152x200.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/24051.html" rel="bookmark" title="关于数据科学的十本好书（英文篇）">
         关于数据科学的十本好书（英文篇）
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/23995.html">
         <img src="http://dataunion.org/wp-content/uploads/2016/05/1462247200170022837-200x200.jpg"/>
        </a>
        <a class="link" href="http://dataunion.org/23995.html" rel="bookmark" title="编程书单：十本Python编程语言的入门书籍">
         编程书单：十本Python编程语言的入门书籍
        </a>
       </li>
      </ul>
     </div>
     <!--相关文章-->
     <div class="comment" id="comments">
      <!-- You can start editing here. -->
      <ul id="comment">
       <li id="comment-12791">
        <span>
         <p class="avatar" href="" target="_blank">
          <img src="https://secure.gravatar.com/avatar/ff10e2fcdac0162d64ea5a6b85926170?s=86"/>
         </p>
        </span>
        <div class="mhcc">
         <address>
          beihuxiansheng - 
						2015/04/27
         </address>
         <p>
          真是厉害，膜拜中。
         </p>
        </div>
       </li>
       <!-- #comment-## -->
      </ul>
      <div class="title">
       期待你一针见血的评论，Come on！
      </div>
      <div id="respond">
       <p>
        不用想啦，马上
        <a href="http://dataunion.org/wp-login.php?redirect_to=http%3A%2F%2Fdataunion.org%2F14988.html">
         "登录"
        </a>
        发表自已的想法.
       </p>
      </div>
     </div>
     <!-- .nav-single -->
    </div>
    <!--Container End-->
    <aside id="sitebar">
     <div class="sitebar_list2">
      <div class="wptag">
       <span class="tagtitle">
        热门标签+
       </span>
       <div class="tagg">
        <ul class="menu" id="menu-%e5%8f%8b%e6%83%85%e9%93%be%e6%8e%a5">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-1605" id="menu-item-1605">
          <a href="http://taidizh.com/">
           泰迪智慧
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-20884" id="menu-item-20884">
          <a href="http://www.transwarp.cn/">
           星环科技
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-3538" id="menu-item-3538">
          <a href="http://datall.org/">
           珈和遥感
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-20888" id="menu-item-20888">
          <a href="http://www.chinahadoop.cn/">
           小象学院
          </a>
         </li>
        </ul>
       </div>
      </div>
     </div>
     <div class="sitebar_list">
      <div class="textwidget">
       <div align="center">
        <a href="http://study.163.com/course/courseMain.htm?courseId=991022" target="_blank">
         <img src="http://dataunion.org/wp-content/uploads/2016/03/dv.jpg"/>
        </a>
       </div>
      </div>
     </div>
     <div class="sitebar_list">
      <h4 class="sitebar_title">
       文章分类
      </h4>
      <div class="tagcloud">
       <a class="tag-link-44" href="http://dataunion.org/category/industry/demo" style="font-size: 10.204724409449pt;" title="4个话题">
        Demo展示
       </a>
       <a class="tag-link-31" href="http://dataunion.org/category/experts" style="font-size: 15.826771653543pt;" title="52个话题">
        专家团队
       </a>
       <a class="tag-link-870" href="http://dataunion.org/category/tech/ai" style="font-size: 19.795275590551pt;" title="273个话题">
        人工智能
       </a>
       <a class="tag-link-488" href="http://dataunion.org/category/%e5%8a%a0%e5%85%a5%e6%95%b0%e7%9b%9f" style="font-size: 8pt;" title="1个话题">
        加入数盟
       </a>
       <a class="tag-link-869" href="http://dataunion.org/category/tech/viz" style="font-size: 17.204724409449pt;" title="93个话题">
        可视化
       </a>
       <a class="tag-link-30" href="http://dataunion.org/category/partners" style="font-size: 10.645669291339pt;" title="5个话题">
        合作伙伴
       </a>
       <a class="tag-link-889" href="http://dataunion.org/category/parterc" style="font-size: 11.582677165354pt;" title="8个话题">
        合作会议
       </a>
       <a class="tag-link-104" href="http://dataunion.org/category/books" style="font-size: 12.96062992126pt;" title="15个话题">
        图书
       </a>
       <a class="tag-link-220" href="http://dataunion.org/category/tech/base" style="font-size: 19.850393700787pt;" title="281个话题">
        基础架构
       </a>
       <a class="tag-link-219" href="http://dataunion.org/category/tech/analysis" style="font-size: 19.409448818898pt;" title="232个话题">
        数据分析
       </a>
       <a class="tag-link-887" href="http://dataunion.org/category/tech/dm" style="font-size: 13.291338582677pt;" title="17个话题">
        数据挖掘
       </a>
       <a class="tag-link-34" href="http://dataunion.org/category/tech" style="font-size: 20.732283464567pt;" title="404个话题">
        文章
       </a>
       <a class="tag-link-1" href="http://dataunion.org/category/uncategorized" style="font-size: 22pt;" title="693个话题">
        未分类
       </a>
       <a class="tag-link-4" href="http://dataunion.org/category/events" style="font-size: 14.503937007874pt;" title="29个话题">
        活动
       </a>
       <a class="tag-link-890" href="http://dataunion.org/category/tech/%e6%b7%b1%e5%ba%a6%e5%ad%a6%e4%b9%a0" style="font-size: 10.204724409449pt;" title="4个话题">
        深度学习
       </a>
       <a class="tag-link-221" href="http://dataunion.org/category/tech/devl" style="font-size: 18.968503937008pt;" title="193个话题">
        编程语言
       </a>
       <a class="tag-link-888" href="http://dataunion.org/category/career" style="font-size: 15.661417322835pt;" title="48个话题">
        职业规划
       </a>
       <a class="tag-link-5" href="http://dataunion.org/category/jobs" style="font-size: 14.11811023622pt;" title="25个话题">
        职位
       </a>
       <a class="tag-link-871" href="http://dataunion.org/category/industry" style="font-size: 15.716535433071pt;" title="49个话题">
        行业
       </a>
       <a class="tag-link-613" href="http://dataunion.org/category/industry/case" style="font-size: 16.984251968504pt;" title="84个话题">
        行业应用
       </a>
       <a class="tag-link-885" href="http://dataunion.org/category/industry/news" style="font-size: 17.425196850394pt;" title="102个话题">
        行业资讯
       </a>
       <a class="tag-link-10" href="http://dataunion.org/category/training" style="font-size: 14.228346456693pt;" title="26个话题">
        课程
       </a>
       <a class="tag-link-16" href="http://dataunion.org/category/sources" style="font-size: 15.661417322835pt;" title="48个话题">
        资源
       </a>
      </div>
     </div>
     <div class="sitebar_list">
      <h4 class="sitebar_title">
       功能
      </h4>
      <ul>
       <li>
        <a href="http://dataunion.org/wp-login.php?action=register">
         注册
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/wp-login.php">
         登录
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/feed">
         文章
         <abbr title="Really Simple Syndication">
          RSS
         </abbr>
        </a>
       </li>
       <li>
        <a href="http://dataunion.org/comments/feed">
         评论
         <abbr title="Really Simple Syndication">
          RSS
         </abbr>
        </a>
       </li>
       <li>
        <a href="https://cn.wordpress.org/" title="基于WordPress，一个优美、先进的个人信息发布平台。">
         WordPress.org
        </a>
       </li>
      </ul>
     </div>
    </aside>
    <div class="clear">
    </div>
   </div>
   <!--main-->
   ﻿
   <footer id="dibu">
    <div class="about">
     <div class="right">
      <ul class="menu" id="menu-%e5%ba%95%e9%83%a8%e8%8f%9c%e5%8d%95">
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-18024" id="menu-item-18024">
        <a href="http://dataunion.org/category/partners">
         合作伙伴
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-20881" id="menu-item-20881">
        <a href="http://dataunion.org/contribute">
         文章投稿
        </a>
       </li>
       <li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-20872" id="menu-item-20872">
        <a href="http://dataunion.org/category/%e5%8a%a0%e5%85%a5%e6%95%b0%e7%9b%9f">
         加入数盟
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-22441" id="menu-item-22441">
        <a href="http://dataunion.org/f-links">
         友情链接
        </a>
       </li>
       <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-20874" id="menu-item-20874">
        <a href="http://dataunion.org/aboutus">
         关于数盟
        </a>
       </li>
      </ul>
      <p class="banquan">
       数盟社区        ，
        做最棒的数据科学社区
      </p>
     </div>
     <div class="left">
      <ul class="bottomlist">
       <li>
        <a href="http://weibo.com/DataScientistUnion  " target="_blank" 　title="">
         <img src="http://dataunion.org/wp-content/themes/yzipi/images/weibo.png"/>
        </a>
       </li>
       <li>
        <a class="cd-popup-trigger" href="http://dataunion.org/14988.html#0">
         <img src="http://dataunion.org/wp-content/themes/yzipi/images/weixin.png"/>
        </a>
       </li>
      </ul>
      <div class="cd-popup">
       <div class="cd-popup-container">
        <h1>
         扫描二维码,加微信公众号
        </h1>
        <img src="http://dataunion.org/wp-content/themes/yzipi/images/2014-12-06-1515289049.png"/>
        <a class="cd-popup-close" href="http://dataunion.org/14988.html">
        </a>
       </div>
       <!-- cd-popup-container -->
      </div>
      <!-- cd-popup -->
     </div>
    </div>
    <!--about-->
    <div class="bottom">
     <a href="http://dataunion.org/">
      数盟社区
     </a>
     <a href="http://www.miitbeian.gov.cn/" rel="external nofollow" target="_blank">
      京ICP备14026740号
     </a>
     联系我们：
     <a href="mailto:contact@dataunion.org" target="_blank">
      contact@dataunion.org
     </a>
     <div class="tongji">
     </div>
     <!--bottom-->
     <div class="scroll" id="scroll" style="display:none;">
      ︿
     </div>
    </div>
   </footer>
   <!--dibu-->
  </div>
 </body>
</html>